8.1 文埋め込みとは
文の意味をベクトルで表現する
ベクトルの類似度計算 -> 意味的類似度
TF-IDFは文字列の一致のみ
文埋め込みはより文書の意味内容を捉える
転移学習の特徴量として利用
文埋め込みによって得られたベクトルを特徴量として用いることで、多層パーセプトロンのような単純なモデルでも下流タスクを解く (Kindle版 p.406)
性能評価
2つのタスクで
意味的類似度タスク
STS12-16
STS-B
SICK-R
転移学習タスク
BERTに文ペアを入力する場合、計算コストが高い
文埋め込みは事前に計算できる
文埋め込みモデルを使わない
単語埋め込み(word2vecなど)を平均(または、足し合わせる)
単純なベースラインとなる
文中の単語の順序や、文脈によって決まる単語の意味を考慮できない (Kindle版 p.411)
文としては意味が異なるが、単語埋め込みの足し合わせでは同じベクトルになってしまう例
会社の音楽を再生する
音楽の会社を再生する
BERTの出力を使う
いくつかやり方はある
CLSトークンのベクトルを採用
すべてのトークンのベクトルの平均
最大値プーリング(各次元の最大値を採用)
しかし、これらの方法はあまり性能が高くないことが知られています。特に、意味的類似度タスクでは、単語埋め込みの平均を用いた単純な手法よりも性能が下回る (Kindle版 p.412)